pandas中DataFrame如何检测重复值

最新推荐文章于 2023-12-04 21:30:07 发布

心际花园

最新推荐文章于 2023-12-04 21:30:07 发布

阅读量1.3w

点赞数 6

分类专栏： pandas

本文链接：https://blog.csdn.net/zilongxuan008/article/details/117256659

版权

pandas 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

DataFrame.duplicated(subset=None, keep='first')

subset：如果你认为几个字段重复，则数据重复，就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

默认为’first’ ,也就是如果有重复数据，则第一条出现的定义为False，后面的重复数据为True。
如果为’last’，也就是如果有重复数据，则最后一条出现的定义为False，后面的重复数据为True。
如果为False，则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

在这里插入图片描述

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep，保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子，subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录，通过布尔索引
df[df.duplicated()]

在这里插入图片描述

# 查询重复值的个数。
df.duplicated().sum()

结果
1

心际花园

关注

6
点赞
踩
19

收藏

觉得还不错? 一键收藏
3
评论
pandas中DataFrame如何检测重复值

DataFrame.duplicated(subset=None, keep='first')subset：如果你认为几个字段重复，则数据重复，就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。keep:默认为’first’ ,也就是如果有重复数据，则第一条出现的定义为False，后面的重复数据为True。如果为’last’，也就是如果有重复数据，则最后一条出现的定义为False，后面的重复数据为True。如果为False，则所有重复的为True下面举例df
复制链接

扫一扫